

# ppt
pip3 install python-pptx python-docx markdown  -i http://pypi.tuna.tsinghua.edu.cn/simple  --trusted-host pypi.tuna.tsinghua.edu.cn



# pdf
pip3  install pymupdf4llm  -i http://pypi.tuna.tsinghua.edu.cn/simple  --trusted-host pypi.tuna.tsinghua.edu.cn


# doc

echo "doc 依赖于 pandoc  https://github.com/jgm/pandoc "


# 因为 Pandoc 默认不支持直接处理旧版 Word 文档格式（.doc）。为了解决这个问题，我们需要使用一个中间步骤来转换 .doc 文件。
# 我们可以使用 unoconv 工具先将 .doc 转换为 .docx，然后再使用 Pandoc 处理。
brew install unoconv 
#  pip3 install unoconv  -i http://pypi.tuna.tsinghua.edu.cn/simple  --trusted-host pypi.tuna.tsinghua.edu.cn



# https://github.com/VikParuchuri/marker
# https://github.com/VikParuchuri/marker/tree/master
pip3 install marker-pdf    -i http://pypi.tuna.tsinghua.edu.cn/simple  --trusted-host pypi.tuna.tsinghua.edu.cn


#
